冷静审视人工智能技术的本质 | 一图看懂新一代人工智能知识体系大全
冷静审视人工智能技术的本质
吴妙芸
来源:图灵人工智能(ID:TuringAI01)
人工智能的发展离不开基础支持层和技术层,基础支持层包括大数据、计算力和算法;技术层包括计算机视觉、语音识别和自然语言处理。在过去的2016年人工智能风风火火了一把,到目前为止,还在大力向前发展,研究机构、企业、投资机构和政府都对人工智能投入了很多关注,并陆续出台了一些政策。人工智能的技术本质是什么,本文会详细分析。
总览人工智能技术图谱
基础支撑层的算法创新发生在20世纪80年代末,是大数据和计算力将人工智能推到镁光灯之下,而建立在这之上的基础技术便是计算机视觉、语音识别和自然语言理解,机器试图看懂、听懂人类的世界、用人类的语言和人类交流,研究人类智能活动的规律。
1.计算机视觉技术(Computer Vision)
1)·什么是计算机视觉
“人的大脑皮层的活动, 大约70%是在处理视觉相关信息。视觉就相当于人脑的大门,其它如听觉、触觉、味觉那都是带宽较窄的通道。视觉相当于八车道的高速, 其它感觉是两旁的人行道。如果不能处理视觉信息的话,整个人工智能系统是个空架子,只能做符号推理,比如下棋、定理证明, 没法进入现实世界。计算机视觉之于人工智能,它相当于说芝麻开门。大门就在这里面,这个门打不开, 就没法研究真实世界的人工智能。”
——朱松纯,加州大学洛杉矶分校UCLA统计学和计算机科学教授
根据科普中国撰写的对计算机视觉的定义,这是一门研究如何让机器“看”的科学,更进一步的说,是指用计算机代替人眼对目标进行识别、跟踪和测量的机器视觉,并进一步做图形处理,使计算机处理成为更适合人眼观察或传送给仪器检测的图像。
2)·计算机视觉 VS 机器视觉
计算机视觉更关注图像信号本身以及图像相关交叉领域(地图、医疗影像)的研究;机器视觉则偏重计算机视觉技术工程化,更关注广义上的图像信号(激光和摄像头)和自动化控制(生产线)方面的应用。
3)计算机视觉识别技术的分类
物体识别分为“1 VS N”对不同物体进行归类,以及“1 VS 1”对同类型的物体进行
区分和鉴别;物体属性识别,结合地图模型让物体在视觉的三维空间里得到记忆的重建,进而进行场景的分析和判断;物体行为识别分为3个进阶的步骤,移动识别判断物体是否做了位移,动作识别判断物体做的是什么动作,行为识别是结合视觉主体和场景的交互做出行为的分析和判断。
4)·计算机视觉的识别流程
计算机视觉识别流程分为两条路线:训练模型和识别图像。
训练模型:样本数据包括正样本(包含待检目标的样本)和负样本(不包含目标的样本),视觉系统利用算法对原始样本进行特征的选择和提取训练出分类器(模型);此外因为样本数据成千上万、提取出来的特征更是翻番,所以一般为了缩短训练的过程,会人为加入知识库(提前告诉计算机一些规则),或者引入限制条件来缩小搜索空间。
识别图像:会先对图像进行信号变换、降噪等预处理,再来利用分类器对输入图像进行目标检测。一般检测过程为用一个扫描子窗口在待检测的图像中不断的移位滑动,子窗口每到一个位置就会计算出该区域的特征,然后用训练好的分类器对该特征进行筛选,判断该区域是否为目标。
5)计算机视觉技术模式图和对应企业图
目前世界上图像识别最大的数据库,是斯坦福大学人工智能实验室提供的ImageNet,针对诸如医疗等细分领域也需要收集相应的训练数据;Google、Microsoft此类科技巨头会面向市场提供开源算法框架,为初创视觉识别公司提供初级算法。
2.语音识别(Automatic Speech Recognition)
1)什么是语音识别
语音识别是以语音为研究对象,通过信号处理和识别技术让机器自动识别和理解人类口述的语言后,将语音信号转换为相应的文本或命令的一门技术。
由语音识别和语音合成、自然语言理解、语义网络等技术相结合的语音交互正在逐步成为当前多通道、多媒体智能人机交互的主要方式。
2)语音识别的流程
语音识别流程分为训练和识别两条线路。
语音信号经过前端信号处理、端点检测等预处理后,逐帧提取语音特征,传统的特征类型包括有MFCC、PLP、FBANK等特征,提取好的特征会送到解码器,在训练好的声学模型、语言模型之下,找到最为匹配的此序列作为识别结果输出。
3)语音识别技术模式图和对应企业图
基础层:包含大数据、计算力和算法三块,其中大数据等接入的是相应领域的第三方服务商。机器在识别人类的语音指令后接入、提供相应的服务。诸如影视、电影票、餐饮等;
技术层:以科大讯飞为首的语音技术提供商;
应用层:传统家居环境中的电视、音箱厂商都给加上了语音识别功能,新增交互方式;还有智能车载采用语音交互让手不离开方向盘提高安全系数;还有搜索厂商基于搜索做出来的语音助手等。
3.自然语言理解(Natural Language Understanding)
1)什么是自然语言理解
自然语言理解即文本理解,和语音图像的模式识别技术有着本质的区别,语言作为知识的载体,承载了复杂的信息量,具有高度的抽象性,对语言的理解属于认知层面,不能仅靠模式匹配的方式完成。
2)自然语言理解的应用:搜索引擎+机器翻译;
自然语言理解最典型两种应用为搜索引擎和机器翻译。
搜索引擎可以在一定程度上理解人类的自然语言,从自然语言中抽取出关键内容并用于检索,最终达到搜索引擎和自然语言用户之间的良好衔接,可以在两者之间建立起更高效,更深层的信息传递。
3)自然语言理解技术在搜索引擎中的应用
4)自然语言理解技术在机器翻译中的应用
事实上搜索引擎和机器翻译不分家,互联网、移动互联网为其充实了语料库使得其发展模态发生了质的改变。互联网、移动互联网除了将原先线下的信息(原有语料)进行在线化之外,还衍生出来的新型UGC模式:知识分享数据,像维基百科、百度百科等都是人为校准过的词条,噪声小;社交数据,像微博和微信等展现用户的个性化、主观化、时效性,可以用来做个性化推荐、情感倾向分析、以及热点舆情的检测和跟踪等;社区、论坛数据,像果壳、知乎等为搜索引擎提供了问答知识、问答资源等数据源。
另一方面,因为深度学习采用的层次结构从大规模数据中自发学习的黑盒子模式是不可解释的,而以语言为媒介的人与人之间的沟通应该要建立在相互理解的基础上,所以深度学习在搜索引擎和机器翻译上的效用没有语音图像识别领域来得显著。
一图看懂新一代
人工智能知识体系大全
来自:财经头条
(来源:华尔街见闻。如侵删)
一网打尽系列文章,请回复以下关键词查看: |
创新发展:习近平 | 创新中国 | 创新创业 | 科技体制改革 | 科技创新政策 | 协同创新 | 成果转化 | 新科技革命 | 基础研究 | 产学研 | 供给侧 |
热点专题:军民融合 | 民参军 | 工业4.0 | 商业航天 | 智库 | 国家重点研发计划 | 基金 | 装备采办 | 博士 | 摩尔定律 | 诺贝尔奖 | 国家实验室 | 国防工业 | 十三五 | 创新教育 | 军工百强 | 试验鉴定 | 影响因子 | 双一流 | 净评估 |
预见未来:预见2016 | 预见2020 | 预见2025 | 预见2030 | 预见2035 | 预见2045 | 预见2050 | |
前沿科技:颠覆性技术 | 生物 | 仿生 | 脑科学 | 精准医学 | 基因 | 基因编辑 | 虚拟现实 | 增强现实 | 纳米 | 人工智能 | 机器人 | 3D打印 | 4D打印 | 太赫兹 | 云计算 | 物联网 | 互联网+ | 大数据 | 石墨烯 | 能源 | 电池 | 量子 | 超材料 | 超级计算机 | 卫星 | 北斗 | 智能制造 | 不依赖GPS导航 | 通信 | MIT技术评论 | 航空发动机 | 可穿戴 | 氮化镓 | 隐身 | 半导体 | 脑机接口 |
先进武器:中国武器 | 无人机 | 轰炸机 | 预警机 | 运输机 | 战斗机 | 六代机 | 网络武器 | 激光武器 | 电磁炮 | 高超声速武器 | 反无人机 | 防空反导 | 潜航器 | |
未来战争:未来战争 | 抵消战略 | 水下战 | 网络空间战 | 分布式杀伤 | 无人机蜂群 | 太空站 |反卫星 |
领先国家:俄罗斯 | 英国 | 日本 | 以色列 | 印度 |
前沿机构:战略能力办公室 | DARPA | Gartner | 硅谷 | 谷歌 | 华为 | 俄先期研究基金会 | 军工百强 |
前沿人物:钱学森 | 马斯克 | 凯文凯利 | 任正非 | 马云 | 奥巴马 | 特朗普 |
专家专栏:黄志澄 | 许得君 | 施一公 | 王喜文 | 贺飞 | 李萍 | 刘锋 | 王煜全 | 易本胜 | 李德毅 | 游光荣 | 刘亚威 | 赵文银 | 廖孟豪 | 谭铁牛 | 于川信 | 邬贺铨 | |
全文收录:2016文章全收录 | 2015文章全收录 | 2014文章全收录 |
其他主题系列陆续整理中,敬请期待…… |
“远望智库”聚焦前沿科技领域,着眼科技未来发展,围绕军民融合、科技创新、管理创新、科技安全、知识产权等主题,开展情报挖掘、发展战略研究、规划论证、评估评价、项目筛选,以及成果转化等工作,为管理决策、产业规划、企业发展、机构投资提供情报、咨询、培训等服务,为推动国家创新驱动发展和军民融合深度发展提供智力支撑